Accurately predicting interactive road agents' future trajectories and planning a socially compliant and human-like trajectory accordingly are important for autonomous vehicles. In this paper, we propose a planning-centric prediction neural network, which takes surrounding agents' historical states and map context information as input, and outputs the joint multi-modal prediction trajectories for surrounding agents, as well as a sequence of control commands for the ego vehicle by imitation learning. An agent-agent interaction module along the time axis is proposed in our network architecture to better comprehend the relationship among all the other intelligent agents on the road. To incorporate the map's topological information, a Dynamic Graph Convolutional Neural Network (DGCNN) is employed to process the road network topology. Besides, the whole architecture can serve as a backbone for the Differentiable Integrated motion Prediction with Planning (DIPP) method by providing accurate prediction results and initial planning commands. Experiments are conducted on real-world datasets to demonstrate the improvements made by our proposed method in both planning and prediction accuracy compared to the previous state-of-the-art methods.
translated by 谷歌翻译
多尺度特征的学习和聚集对于授权神经网络以捕获点云上采样任务中的细颗粒几何细节至关重要。大多数现有方法从固定分辨率的点云中提取多尺度功能,因此仅获得有限的细节。尽管现有的方法汇总了一系列Upplampling子网络的不同分辨率的特征层次结构,但培训既复杂又具有昂贵的计算。为了解决这些问题,我们构建了一个名为BIMS-PU的新点云上采样管道,该管道将特征金字塔体系结构与双向上下采样路径集成在一起。具体而言,我们通过将目标采样因子分解为较小的因素,将上/下采样过程分解为几个上/下采​​样子步骤。多尺度特征是自然而然地以平行方式生产的,并使用快速特征融合方法进行聚合。监督信号同时应用于不同尺度的所有上采样点云。此外,我们制定一个残留块,以减轻模型的训练。不同数据集上的广泛定量和定性实验表明,我们的方法取得了优于最先进方法的结果。最后但并非最不重要的一点是,我们证明了点云上采样可以通过改善3D数据质量来改善机器人感知。
translated by 谷歌翻译
在许多情况下,需要精确的机器人操纵任务(插入,拧紧,精确选择,精确选择)。以前的方法在此类操作任务上实现了良好的性能。但是,这种方法通常需要乏味的校准或昂贵的传感器。 3D/RGB-D摄像机和扭矩/力传感器增加了机器人应用的成本,并且可能并不总是经济的。在这项工作中,我们旨在解决这些问题,但仅使用弱化和低成本的网络摄像头。我们提出了双眼对准学习(BAL),可以自动学习眼手协调和点对准能力以解决这四个任务。我们的工作重点是与未知的眼睛协调合作,并提出了自动执行眼镜校准的不同方法。该算法在模拟中进行了训练,并使用实用管道实现SIM2Real并在真实机器人上进行测试。我们的方法在四个任务上成本最低,取得了竞争性的效果。
translated by 谷歌翻译
近年来,由于机器学习的进步,已经完成了无数关于智能机器人政策的最高级工作。然而,效率低下和缺乏转移能力阻碍了实用应用程序,尤其是在人类机器人协作中,少数快速学习和高灵活性成为一种努力。为了克服这一障碍,我们指的是一个“政策池”,其中包含可以轻松访问和重复使用的预训练技能。通过以灵活的顺序展开必要的技能,采用代理来管理“政策池”,取决于特定于任务的偏爱。可以从一个或几个人类专家示范中自动解释这种偏好。在这个层次结构的环境下,我们的算法能够在迷你招架环境中获得一个稀疏的奖励,多阶段的诀窍,只有一次演示,显示了有可能立即掌握人类教练的复杂机器人技能的潜力。此外,我们算法的先天质量还允许终身学习,使其成为一种多功能的代理。
translated by 谷歌翻译
最近在计算机视觉和认知推理中的工作引起了越来越多地通过了违反了合成数据集中的预期(voe)范式。受婴儿心理学的启发,研究人员现在正在评估模型的标签场景的能力,只有预期的场景知识。然而,物理推理中现有的基于VOE的3D数据集主要提供似乎没有启发式或归纳偏差的视觉数据。物理推理的认知模型揭示婴儿创造了对象和互动的高级抽象表示。利用这一知识,我们建立了通过策划具有因果关系和规则的地面真理启发式标签的新型大型合成3D VoO数据集来研究体力学推理的基准。为了验证我们的数据集五个事件的物理推理,我们基准和分析人类性能。我们还提出了对象文件的物理推理网络(OFPR-NET),它利用DataSet的新型启发式机构来胜过我们的基线和消融模型。 OFPR-NET在学习替代物理现实方面也是灵活的,展示其能够在物理推理中学习普遍因果关系,以创建具有更好可解释性的系统。
translated by 谷歌翻译
如何在演示相对较大时更加普遍地进行模仿学习一直是强化学习(RL)的持续存在问题。糟糕的示威活动导致狭窄和偏见的日期分布,非马洛维亚人类专家演示使代理商难以学习,而过度依赖子最优轨迹可以使代理商努力提高其性能。为了解决这些问题,我们提出了一种名为TD3FG的新算法,可以平稳地过渡从专家到学习从经验中学习。我们的算法在Mujoco环境中实现了有限的有限和次优的演示。我们使用行为克隆来将网络作为参考动作发生器训练,并在丢失函数和勘探噪声方面使用它。这种创新可以帮助代理商从示威活动中提取先验知识,同时降低了糟糕的马尔科维亚特性的公正的不利影响。与BC +微调和DDPGFD方法相比,它具有更好的性能,特别是当示范相对有限时。我们调用我们的方法TD3FG意味着来自发电机的TD3。
translated by 谷歌翻译
空间卷积广泛用于许多深度视频模型。它基本上假设了时空不变性,即,使用不同帧中的每个位置的共享权重。这项工作提出了用于视频理解的时间 - 自适应卷积(Tadaconv),这表明沿着时间维度的自适应权重校准是促进在视频中建模复杂的时间动态的有效方法。具体而言,Tadaconv根据其本地和全局时间上下文校准每个帧的卷积权重,使空间卷积具有时间建模能力。与先前的时间建模操作相比,Tadaconv在通过卷积内核上运行而不是特征,其维度是比空间分辨率小的数量级更有效。此外,内核校准还具有增加的模型容量。通过用Tadaconv替换Reset中的空间互联网来构建坦达2D网络,这与多个视频动作识别和定位基准测试的最先进方法相比,导致PAR或更好的性能。我们还表明,作为可忽略的计算开销的容易插入操作,Tadaconv可以有效地改善许多具有令人信服的边距的现有视频模型。 HTTPS://github.com/alibaba-mmai-research/pytorch-video -Undersing提供代码和模型。
translated by 谷歌翻译
最近在认知推理和计算机愿景中的工作在合成数据集中违反期望(voe)范式的违反期望(voe)范式的越来越受欢迎。研究人员在婴儿心理学中受到影响,研究人员已经开始评估模型的能力,以歧视预期和令人惊讶的场景,作为其推理能力的迹象。物理推理中现有的基于VOE的3D数据集仅提供视觉数据。然而,心理学家的现有认知模型揭示婴儿创造了对象和互动的高级抽象表示。关于这一知识,我们提出了禽兽:基于合成的3D VOE的数据集,呈现来自多个新型子类别的刺激,用于五种事件的物理推理。与现有工作相比,Avoe武装有抽象特征和规则的地面真理标签,增强到视觉数据,为物理推理任务中的高级符号预测铺平了道路。
translated by 谷歌翻译
对比学习的核心思想是区分不同的实例,并从相同实例中强制不同的视图以共享相同的表示。为了避免琐碎的解决方案,增强在生成不同视图中起重要作用,其中显示了随机裁剪来对模型来学习广义和鲁棒的表示。常用的随机作物操作保持沿着训练过程不变的两个视图之间的分布。在这项工作中,我们表明,自适应地控制沿着训练过程的两个增强视图之间的视差增强了学习的表示的质量。具体而言,我们提出了一种参数立方裁剪操作,用于视频对比度学习,其通过可分辨率的3D仿射变换自动批量3D立方。参数使用对抗目标与视频骨干同时培训,并从数据中学习最佳裁剪策略。可视化表明,参数自适应地控制了两个增强视图之间的中心距离和IOU,并且沿着训练过程的差异中的学习变化是有利于学习强烈的表示。广泛的消融研究证明了所提出的参数对多个对比学习框架和视频骨干的有效性。可以使用代码和模型。
translated by 谷歌翻译
利用多尺度功能在解决语义细分问题方面表现出了巨大的潜力。聚集通常是用总和或串联(Concat)进行的,然后是卷积(Conv)层。但是,它将高级上下文完全通过了以下层次结构,而无需考虑它们的相互关系。在这项工作中,我们旨在启用低级功能,以通过跨尺度像素到区域关系操作从相邻的高级特征图中汇总互补上下文。我们利用跨尺度上下文的传播,即使高分辨率的低级特征也可以使远程依赖关系也可以捕获。为此,我们采用有效的功能金字塔网络来获得多尺度功能。我们提出了一个关系语义提取器(RSE)和关系语义传播器(RSP),分别用于上下文提取和传播。然后,我们将几个RSP堆叠到RSP头中,以实现上下文的渐进自上而下分布。两个具有挑战性的数据集和可可的实验结果表明,RSP头在语义细分和泛型分割方面都具有高效率的竞争性。在语义分割任务中,它的表现优于DeepLabv3 [1],而在语义分割任务中少75%(多重添加)。
translated by 谷歌翻译